通过行业应用先行来带动整体的突破。
文 | 华商韬略 王梦欣
年初以来,OpenAI以ChatGPT在全球掀起AI大模型热潮。但美国的AI大模型,远不止于OpenAI的ChatGPT。
【井喷式发展】
综合各种数据,虽然中国发展势头迅猛,但美国依然是全球发布大模型最多的国家,到2023年5月,其10亿级参数规模以上的基础大模型就已突破100 个。
《经济学人》报道,美国2022年大模型投资总额达474亿美元,是第二名中国(134亿美元)的约3.5倍,且仍保持激增态势。高盛则进一步预测,美国2025年大模型相关投资可达千亿美元,约全球的1/2。
高盛的调查显示,罗素3000指数公司中有16%的公司在2023年的财报会议中提到了大模型,其经济学家估计,大模型将在十年内提高1%的整体劳动生产率,并为标普500指数带来约14%的增长。
除了ChatGPT,美国如今具有代表性的通用大模型公司还包括:Anthropic、Cohere以及Google等。
其中,由OpenAI前高管Dario和Daniela Amodei等人于2021年自立门户创办的Anthropic,目前估值已达300亿美元,是仅次于OpenAI(约860亿美元估值)的通用大模型企业。
Anthropic拥有多位参与过GPT-2与GPT-3研发的前OpenAI核心员工,其大模型产品Claude2也被认为是仅次于ChatGPT-4的经典力作,甚至有分析师认为,Claude2的性能优于ChatGPT-4。
比如,Claude2可以处理多达约75000个单词的数据集,而ChatGPT大约是3000个,这意味着它可以处理和输出更复杂的内容,也被应用到更有挑战性的领域,比如生成数千字的长文内容。
更让Claude2积攒人气的是,它直接免费向公众开放,而不是像GPT-4一样需要付费使用。
优秀的创始团队和强大的产品性能,让Anthropic备受资本追捧,谷歌、韩国最大移动运营商之一SK Telecom(SKT)、亚马逊都已成为其投资者,其中仅亚马逊的投资就高达40亿美元。
在Anthropic之外,还有一家令人称道的公司便是Cohere。
今年6月,2019年创立的Cohere获得NVIDIA、Oracle、Salesforce Ventures等投资的2.7亿美元,成为估值20亿美元的独角兽,也是估值仅次于OpenAI和Anthropic的基础大模型公司。
Cohere同样以强大创始团队备受业内瞩目,其创始人之一Aidan Gomez是大语言模型领域开创性论文《Attention is All You Need》的最年轻作者,正是这篇文章首次提出了著名的Transformer架构,成为通用大模型发展的基础模型,ChatGPT就是在这一架构的基础上诞生。
▲Cohere推出的第一个生成式AI应用Coral
Cohere与OpenAI提供的产品类似,但它看到了“数据隐私”这个市场机会,将自己与OpenAI的定位区分开来,选择了ToB赛道,坚定地走商用大模型的路线。其产品基础能力包括三大类:文本检索,文本生成和文本分类,并且可针对客户需求,强调安全性,隐私以及定制化服务。
Cohere的另一大卖点是,不受任何云端平台限制,进而保障资料的私密安全性。它提供灵活性存储和资料隐私保护路径,可使用户实现本地部署,以满足客户资料存储不同位置的需求。
Cohere能迅速转向,找到自己的差异化定位,离不开Aidan及其联合创始人独特的人才观和创业哲学。
Aidan曾表示,Cohere寻找不同背景但对AI非常感兴趣并富有雄心的人:他不一定有大公司的漂亮履历,但是一定要对自己专注的领域有非常高的兴趣和热情,而且不光会写论文,还要有实际动手的能力。
差异化的产品战略,与众不同的团队背景,让Cohere成为通用大模型领域的一股清流。
日前,Cohere发布了全球首个公开可用的多语言理解模型,该模型基于来自母语人士的真实数据进行训练,能够阅读和理解全球超过100种最常用的语言。
再来看巨头Google 。
12月6日,Google DeepMind重磅推出了多模态AI模型Gemini,可以同时横跨文字、图片、影音、程式码等多模态进行学习与理解。
以客服机器人的应用为例,使用Gemini作为模型不仅能够从对话的字面意思上理解客户,更能同时从表情、声调接收到客户话语中的意图,能处理包括音讯、程式码、图像、视讯等内容。
据实测结果,Gemini是第一个在大模型多任务语言理解上超越人类专家的模型,且在32项AI测试中,有30项测验结果超过GPT-4。
凭借强大的性能,Gemini迅速出圈,并且为其母公司Alphabet创造巨大声量。12月7日,Google 母公司Alphabet股价涨幅5.31%,收于136.93美元,总市值达到1.72万亿美元。Google 则计划逐步将这一模型融合进其搜索、广告等其他服务中。
但谈到美国大模型,更值得重视的还是其在产业中的应用进展以及未来想象。
【加速产业落地】
斯坦福大学发布的《2023年人工智能索引报告》中显示,2022年,美国的35个大模型中,只有3个大模型来自于实验室,32个都诞生于产业中。今年,也仍然保持着这一趋势。
2023年3月30日,当外界还沉浸在通用大模型涌现的狂欢中,彭博社凭一己之力将众人的注意力集中到行业新赛道。当天,它对外宣称,自己已构建出迄今为止最大的金融领域数据集,训练了专门用于金融领域大语言模型的LLM,并开发了拥有500亿参数的语言模型——BloombergGPT。
顶着全球首个金融大模型的光环,BloombergGPT依托彭博社大量的金融数据源,构建了一个3630亿个标签的数据集。高金智库分析,它可极大提高金融机构的工作效率及稳定性,协助降本增效。
在降本层面,BloombergGPT可以在投研、研发编程、风险控制及流程管理等方面减少人员投入;增效层面,它既可以通过给定的主题和语境,自动生成高质量的金融报告、财务分析报告及招股书,同时辅助会计和审计方面的工作,还可提炼梳理财经新闻或者财务信息,释放专业人力到更需要人工专业的领域。
天风证券则在报告中指出,由于BloombergGPT比ChatGPT拥有更专业的训练语料,它将在金融场景中表现出强于通用大模型的能力,进而也标志着金融领域的GPT革命已经开始。
BloombergGPT只是一个典型案例,目前,美国金融大模型已呈现出明显的三个“流派”:一是独立全栈自研,强调自主可控;二是在他人的基础上结合自身数据与场景微调,形成契合自身的金融大模型;三是从云端调用,按需接入各类大模型API做私有化部署,科技基础薄弱的中小型金融公司多采用这类方式。
据有关统计数据,美国金融AI约占整体AI领域融资的6.7%。
医疗行业,是美国大模型落地应用的另一片热土,谷歌、微软等科技巨头, Sensely、Enlitic等医疗科技公司,AbSci、Exscientia等生物医药初创企业,以及赛纽仕等CXO(医药外包)企业,都已参与其中。
化合物合成、靶点发现等新药研发业务,电子病历、辅助问诊等医院诊疗业务,则是美国医疗大模型应用的常用场景,CT(电脑断层扫描)、MRI(磁共振成像)等医疗器械在大模型赋能下进一步增强。
众多医疗大模型中,谷歌的Med-PaLM2是被关注的重点。它是第一个在美国医师执照考试(USMLE)的MEDQA数据集上达到“专家”考生水平的大模型,其准确率达85分以上;也是第一个在包括印度AIIMS和NEET医学考试问题的MEDMCQA数据集上达到及格分数的人工智能系统,得分为72.3分。
Med-PaLM2也正对行业带来变革性影响。
通过Med-PaLM2,可以分析大规模的生物医药数据,发现与疾病相关的基因、蛋白质和代谢途径,识别潜在的靶点,帮助筛选具有潜在活性的药物分子,从而缩小候选药物的范围,并优先选择具有较高活性的化合物进行后续实验验证。备受时间煎熬的新药研发,则将因此缩短研发周期,降低研发成本。
Med-PaLM2的成功,还刺激谷歌在医疗大模型领域投入